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传统 关系 型 数据 库 难 以 应 付 日 益 增多 的 非 结 构 化 数据 和 大 
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摘 要 : 大 数据 时 代 背 景 下 ， 列 存储 数据 库 使 用 场景 念 加 增多 ， 推 动 了 列 存储 相关 领域 的 研究 进展 。 为 解决 现 有 列 存 
储 数据 库 压 缩 策 略 在 压缩 过 程 中 遇 到 的 数据 离散 程度 大 ， 分 类 粒度 小 ， 配 套 分 类 算法 缺陷 导致 的 学 习 成 本 高 ， 压 缩 效 
率 难 以 保证 的 问题 ， 本 文 提 出 了 一 种 基于 排序 的 列 区 混合 压缩 策略 ， 首 先 根据 HBase 特点 设计 了 一 种 对 各 列 数据 进行 
排序 的 方法 加 强 数据 紧密 度 ， 然 后 根据 数据 特点 分 别 使 用 混 级 区 压缩 策略 和 混 级 列 压缩 策略 进行 压缩 策略 推荐 ， 在 
TPC-DS 标准 数据 集 上 与 前 人 策略 进行 比较 ， 实 验 结 果 显 示 本 文 方法 在 压缩 率 、 压 缩 /解压 时 间 方 面 均 有 优异 的 表现 ， 
从 而 证 明了 本 文 方 法 的 有 效 性 。 

关键 词 : 列 存储 ; 数据 压缩 ; HBase; 压缩 策略 选择 方法 

中 图 分 类 号 : TP doi: 10.3969/j.issn.1001-3695.2017.12.0841 


Optimization of compression strategy selection method based on classification of HBase data 


Sun Jingchao, Lu Tianliang 
(People’s Public Security University of China, School of Information Technology & Network Security, Beijing 100076, China) 


Abstract: In the era of big data, the usage of column storage database is increasing, which promoted the development of research 
in column-oriented storage field. In order to solve the problem of high learning cost and low compression efficiency caused by 
large data dispersion, small classification granularity and the defect of applied classification algorithm encountered in the 
compression process of the existing column-based database compression strategy, this paper designed a sorted-based hybrid 
compression strategy of column-based compression and sector-based compression. Firstly, we designed a method to sort the 
data in each column according to the characteristics of HBase to strengthen the data compaction. Secondly, according to the 
characteristics of the data, we applied the hybrid column-based compression strategy and the hybrid sector-based compression 
strategy respectively to recommend the compression algorithm . We have conducted experiments on TPC-DS standard data and 
the results demonstrate that the proposed strategy has excellent performance in both compression rate and compression / 
decompression time. 
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来 提升 表现 的 方法 ， 可 以 节省 存储 空间 ， 使 数据 分 布 更 密 
而 减少 搜索 时 间 ， 增 加 数据 传输 速率 和 增加 缓冲 池 命中 率 ， 减 
少 IO 次 数 ， 从 而 缓解 cpu 和 磁盘 速度 不 匹配 的 问题 ， 提 高 查 


引言 


Se 


集 从 


数据 带 来 的 对 灵活 可 扩展 性 的 要 求 ， 为 了 弥补 传统 数据 库 的 缺 。 询 效 率 。HBase 中 的 数据 按 列 进行 存储 ， 同 一 列 的 存储 数据 往 
陷 ， 非 关系 型 数据 库 [1] 应 运 而 生 。 列 存储 数据 库 [2] 是 非 关 系 型 。” 往 具 有 相似 数据 类 型 和 数据 特征 ， 使 得 其 与 传统 按 行 存储 的 数 
数据 库 中 的 重要 一 类 ， 与 传统 数据 库 相 比 ， 在 随机 查询 ， 多 表 ” 据 库 相 比 更 适合 于 进行 数据 压缩 。 

关联 ， 历 史 数 据 分 析 等 具体 应 用 场景 中 ， 处 理 速 度 能 快 几 个 数 J. Abadi 早 在 06 年 其 对 C-store 配套 压缩 算法 的 研究 文章 
量 级 。 


大 数 


开源 项 目 ， 现 如 今 已 经 成 功 运 


HBase[3] 是 Apache 的 一 个 旨 在 将 Big Table 用 于 存储 的 里 [4] 就 指出 如 何 根据 数据 特点 选择 压缩 算法 会 是 下 一 步 的 而 
在 包括 Facebook,Twitter 和  ” 究 重 点 ， 如 今 针 对 列 存储 数据 库 的 特点 进行 压缩 策略 的 选择 的 
Yahoo 等 很 多 大 型 互联 网 公司 的 数据 存储 中 ， 可 以 很 好 的 适应 。 研究 已 经 取得 了 很 多 成 果 。 但 前 人 工作 在 压缩 时 对 数据 并 未 进 


加 


居 时 代 的 存储 工作 。 数 据 压缩 是 数据 库存 储 系统 常用 的 用 ， 行 预 处 理 ， 数 据 在 各 部 分 分 布 差异 较 大 ， 离 散 程度 高 ， 不 适 于 
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压缩 。 在 压缩 
策略 要 统计 各 
研究 对 压缩 算 
择 上 ， 前 人 工 
决策 树 可 解释 
噪声 数据 时 ， 
学 基础 ， 算 法 
大 ， 


分 类 性 能 往往 不 尽 人 意 [3]， 导 致 策 


粒度 的 选择 上 多 偏好 小 粒度 压缩 策略 ， 但 小 粒度 
区 的 统计 信息 ， 计 算 成 本 高 ， 影 响 压 缩 时 间 ， 且 
法 本 身 未 有 足够 关注 。 在 压缩 策略 分 类 算法 的 选 
作 中 常 采 用 的 分 类 算法 有 决策 树 和 朴素 贝 叶 斯 。 
性 好 ， 但 在 面 对 现 实 复杂 的 非 结 构 化 数据 和 各 种 
很 容易 过 拟 合 。 朴 素 贝 叶 斯 分 类 方法 有 坚实 的 数 
简单 ， 易 于 实现 ， 但 其 分 类 性 能 受 先 验 知识 影响 
各 的 准确 性 和 压缩 效率 


无 法 保证 ， 且 
利用 集群 算 力 

为 解决 现 
离散 程度 大 ， 
于 压缩 策略 分 
研究 ， 并 作出 

设计 了 一 


对 拆 分 出 的 各 


现 有 应 用 的 分 类 算法 不 支持 并 行 处 理 ， 不 能 充分 
， 使 负载 不 均 。 
有 列 存储 数据 库 中 在 压缩 过 程 中 过 到 的 数据 分 布 
以 及 现 有 分 类 粒度 带 来 的 复杂 学 习 成 本 和 现 有 关 
类 算法 的 缺点 ， 对 压缩 算法 的 选择 策略 做 了 详 名 
了 如 下 贡献 ; 
种 在 压缩 前 对 数据 进行 排序 的 方法 .将 各 列 拆 分 ， 
列 进行 结构 设计 ， 使 数据 能 够 按照 排序 之 后 的 顺 


序 存储 在 各 region 中 并 且 避 免 热 点 问题 ， 按 使 数据 能 够 排列 紧 


密 ， 最 大 程度 


提出 了 一 种 列 


Strategy of 


Compression ) 


减 小 数据 在 局 部 数据 分 布 的 差异 性 。 
区 混合 压缩 策略 (a Hybrid Compression 


Column-Based Compression and Sector-Based 


,根据 列 数据 分 布 特性 的 不 同 适用 不 同 压缩 策略 ， 
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1 轻 量 级 和 重量 级 压缩 算法 


优化 


E 对 压缩 带 来 的 


王 振 笨 等 人 [14] 提 出 了 一 种 区 级 压缩 策略 ， 以 区 为 单位 将 


对 列 中 各 区 分 布 特征 相似 的 列 采 用 混 级 列 压 缩 (Hybrid ”数据 进行 划分 ， 以 分 区 之 间 的 相关 性 和 差异 性 进行 压缩 算法 的 
Column-Based Compression Strategy) ， 数 据 特征 不 相似 的 采用 选择 ， 找 到 适合 本 部 分 的 压缩 方法 。 此 方法 可 以 为 不 同 区 根据 
混 级 区 压缩 (Hybrid Sector-Based Compression Strategy) ， 大 小 特点 适用 不 同 压缩 算法 ， 保 证 了 压缩 率 ， 但 是 是 如 若 相 似 度 差 
粒度 结合 减少 了 学 习 成 本 。 别 大 的 分 区 过 多 会 导致 较 大 计算 量 。 

在 策略 设计 时 ， 对 压缩 算法 进行 了 详细 研究 ， 选 定 了 合适 Idreos 等 人 [15] 提 出 了 一 种 基于 贝 叶 斯 分 类 的 压缩 算法 动 
于 不 同 数据 特点 的 压缩 算法 ， 并 且 首 次 在 压缩 策略 中 引入 了 ” 态 选 择 策略 ， 通 过 贝 叶 斯 公式 计算 后 为 不 同 的 数据 块 选择 不 同 
XGBoost 算法 作为 分 类 算法 ， 其 出 色 的 泛 化 特性 和 对 并 行 计算 ”的 压缩 算法 ， 尽 可 能 使 待 压缩 数 据 达 到 最 佳 的 压缩 效果 。 但 是 
的 支持 弥补 了 以 往 分 类 算法 的 不 足 。 该 方法 的 准确 性 很 大 程度 取决 于 训练 样本 ， 且 没有 建立 一 个 评 

本 文 的 其 余部 分 安排 如 下 : 本 文 第 二 节 介绍 相关 工作 ; 第 ， 估 层 根据 反馈 结果 评估 压缩 算法 的 好 坏 。 

节 详 细 介 绍 了 列 级 混合 压缩 算法 的 压缩 策略 选择 方法 ， 第 四 王 海 艳 等 人 [16] 提 出 了 一 种 基于 冷 热 数据 分 类 的 压缩 策略 
节 用 本 文 提出 的 方法 在 数据 集 上 进行 了 实验 ， 并 对 实验 结果 进 ” ”选择 方法 ,首先 依据 数据 文件 访问 频 度 将 HBase 数据 划分 为 冷 
行 了 详细 的 分 析 和 说 明 ; 最 后 一 部 分 进行 了 总 结 和 展望 。 热 数 据 ， 并 改进 了 贝 叶 斯 分 类 压缩 方法 ， 在 前 人 基础 上 增加 评 
1 ”相关 工作 占 层 ， 结 合 区 级 压缩 策略 的 优势 提出 了 一 种 新 的 压缩 分 类 法 。 

但 其 分 类 算法 不 支持 并 行 处 理 ， 且 在 压缩 粒度 上 并 未 有 突破 ， 
数据 压缩 一 直 是 数据 领域 的 重点 关注 问题 ， 现 存 众多 压缩 x 级 学 习 的 缺点 仍然 存在 。 
方法 ， 其 中 轻 量 级 压缩 方式 有 游程 编码 [6]， 字 典 编码 ， 空 值 抑 ee a 本 
制 [7] 等 , 重量 级 压缩 编码 有 GZIP, Lempel-Ziv 系列 [8], Huffman 2 列 区 混合 压缩 算法 的 压缩 策略 选择 方法 
编码 [9] 和 算术 编码 [10] 等 。 根 据 文献 [11] ， 轻 量 级 和 重量 级 压 。” 2.1 HBase 数据 排序 实现 
缩 算法 的 不 同 在 于 轻 量 级 算法 是 对 连续 的 值 进行 操作 ， 重 量 级 以 往 关于 列 存储 压缩 策略 的 工作 很 少 涉及 关于 数据 排序 的 
算法 是 打破 了 值 间 的 边界 ， 将 值 当 成 一 系列 字 节 进行 操作 。 常 ”分 类 压缩 策略 ， 根 据 文献 [17][18]， 对 数据 按 自 身 情 况 进行 重新 
用 的 轻 量 级 和 重量 级 压缩 算法 的 分 类 如 图 1 所 示 。 排序 会 使 压缩 算法 得 到 更 好 的 效果 ， 达 到 更 好 的 压缩 率 ， 占 用 
关于 列 存储 压缩 算法 策略 的 研究 首先 开始 于 在 对 C- 更 少 的 存储 空间 。 
store[13] 的 有 关 研 究 中 , J. Abadi 等 [4] 在 文章 中 提出 了 一 种 基于 HBase 支持 压缩 的 文件 有 SequenceFile 和 HFile, 其 中 WAL 


决策 树 的 列 压 缩 模型 。 该 压缩 模型 通过 建立 了 一 个 压缩 算法 决 


策 树 来 判定 各 


列 的 最 佳 压 缩 算 法 。 但 是 该 方法 压缩 粒度 过 大 ， 


(Write-Ahead Log) 是 HBase 中 主要 的 SequenceFile， 是 一 种 


预 写 


日 志 。 数 据 会 首先 写 入 WAL， 写 入 的 WAL 会 存放 到 


201804.01449v1 


国 
国 


IV 


chinaX 


ChinaXiv 合 


用 EM 出 优化 


录用 稿 孙 靖 超 ， 等 : 基于 HBase 的 列 存储 压 缚 

MemStore 中 ， 当 存储 已 满 ， 会 刷 写 到 HDFS 中 生成 一 个 新 的 。” ”对 数据 类 型 的 要 求 较 低 ， 而 游程 编码 对 数据 类 型 要 求 较 高 ， 但 
HFile。 在 HBase 中 ,各 列 的 信息 都 存储 在 各 region 由 HFile 组 ”对 于 重复 数据 且 排 序 规则 的 数据 压缩 效果 很 好 ， 数 据 类 型 要 求 
成 的 StoreFile 中 ,直接 对 原 表 内 容 是 无 法 按 内 容 进行 排序 存储 ” 较 高 ， 两 者 优势 互补 ， 可 以 产生 一 个 很 好 效果 的 算法 。WAH 
的 ， 因 为 各 region 是 按照 行 健 进行 排序 划分 ， 每 个 region 对 应 (Word 一 Alignment Hyhrid Code) [19] 算 法 很 好 的 将 两 者 进行 
一 定 行 健 范 围 的 内 容 ， 即 相同 行 健 的 列 存储 在 同一 region， 而 结合， 且 在 查询 效率 上 有 着 比 在 未 压缩 的 位 图 向 量 上 更 好 的 表 
不 论 要 对 何 种 文件 进行 压缩 , 相 邻 行 健 的 键 值 对 总 排列 在 一 起 ， 现 ， 故 将 其 加 入 压缩 算法 集中 。 在 真实 数据 中 ， 经 常会 出 现存 
故 如 想 实 现 对 表 内 内 容 的 排序 ， 首 先 应 将 列 拆 为 不 同 的 表 ， 对 储 诸 如 URL， 家庭 住址 之 类 的 非 结 构 化 数据 ， 该 类 型 数据 用 简 
列 值 进行 排序 ， 对 排序 后 的 列 生 成 新 表 的 复合 行 健 采 用 单字 典 编码 中 的 前 级 编码 (Trie Encoding) 就 可 以 达到 很 好 的 
<columnID>_<rowID>_<Row-key> 格式 规则 进行 设计 。 效果 。 而 对 日 期 时间， 或 其 他 间距 不 大 的 数据 类 型 ， 增 量 编 


其 中 < columnID > 作为 原 列 位 


使 数据 分 布 到 不 同 的 region sever 上 去 , 避免 产生 
spot)[3], < row7D > 的 作用 是 使 列 中 排序 好 的 值 能 排列 


的 标志 


作为 


[NE 


ee 前 级 


i 


避免 分 散 到 不 同 的 region 中 导致 所 


FE 序 数据 无 法 连续 存储 ， 


< Row 一 key > 的 作用 为 记录 


原 标 标志 ， 


关联 各 列 数据 。 


其 中 


<columnID > ，< rowID > 此 两 字段 的 值 应 该 定 长 。 例如 ， 有 一 


5 列 100 行 的 示例 表 ， 列 族 为 Cf， 有 具体 表格 式 如 表 1 所 示 : 
表 1 示例 表 
ROW-Key CfItemID (Cf:Country Cf:Brand Cf:Color Cf:Price 
le9frtl 256331 China Lining Black 1009$ 
2fvgao2 258221 Canada Addidas Purple 1009$ 
lgvzf43 256893 American Nike White 100$ 
首先 对 数据 按 列 排序 ， 将 排序 后 的 数据 存 到 新 表 中 ， 新 表 


复合 行 健 采 用 <columnID>_<rowID>_ <Row-key> 格 式 设 
计 ， 列 族 仍然 设 为 Cf， 这 里 以 ItemID 列 为 例 展示 为 排序 好 的 


该 列 数据 所 建 的 表格 式 ， 具 体 表 格式 如 表 2 所 示 : 
表 2 TtemID 表 结 构 
ROW-Key Cf:ItemID 
1_001_le9frtl 255330 
1_002 2fvgao2 255331 
1_003_1lgvzf43 255532 


2.2 压缩 算法 和 压缩 粒度 的 选取 


Abadi D[4] 和 Ferreira[11] 的 研究 表 


轻 量 级 压缩 算法 不 仅 cpu 成 本 低 ， 而 
数据 的 操作 ， 提 高 查询 效率 。 故 压缩 
轻 量 级 算法 ， 兼 顾 重量 级 算法 。 

轻 量 级 压缩 算法 中 常用 方法 包括 


明 在 列 存储 应 用 场景 中 


可 


算法 


以 文 持 
的 选择 


游程 编码 ， 位 所 


直接 对 压缩 态 
原则 就 是 偏重 


量 编码 ， 


空 值 抑制 ， 简 单字 典 编码 和 增 量 编码 。 


在 HBase 中 


进行 存储 ， 故 不 将 空 值 抑制 列 入 待 选 
游程 编码 只 能 用 于 对 连续 的 空格 和 字 


压缩 算法 。 


连续 
游程 编码 的 应 用 领域 非常 
经 排序 后 又 会 有 很 适合 的 连 
游程 编码 是 非常 合 


泛 9 可 


适 的 选择 。 在 对 


数 ] 


司 一 列 的 数据 


续 值 长 度 ， 所 以 对 基数 本 
据 的 要 求 上 ， 位 向 量 算法 


， 对 空 值 不 


在 行 存储 中 ， 
母 的 压缩 , 但 在 列 存储 中 ， 


属性 类 似 ， 
\ 的 列 选用 


码 (Delta Encoding) 是 


一 个 非常 适合 的 轻 量 级 压缩 方法 。 


关于 重量 级 算法 , 文献 [3] 将 GZIP、LZO 、snappy 在 HBase 


的 表现 进行 了 实验 , LZO 的 压缩 率 
显 快 的 多 ， 至 于 
[和 指出 这 两 种 编 
支持 压缩 态 的 操 
何 优势 。 本 文选 取 了 文献 由 提出 
KE 集 ， 该 方法 与 原 LZO 算法 相 比 能 节省 最 
内 存 使 用 量 


压缩 算法 


储 空间 和 10% 的 
些 数据 分 布 不 均匀 ,数据 倾斜 不 


编码 。 


居中 , 但 是 其 


压缩 /解压 缩 明 


滑 编 码 系列 的 Huffman 编码 和 算术 编码 ， 
码 方法 在 列 存储 数据 库 


文献 


PF 的 效果 不 好 ,不 仅 不 


和 , 且 压 缩 / 解 / 


压缩 速度 与 上 三 种 方法 比 没有 


县 ， 


是 


解 月 


为 压缩 粒度 。 


在 列 存储 中 以 区 为 
据 分 布 与 整 列 数据 
指出 的 数据 分 布 特点 不 
序 ， 可 使 数据 排列 更 紧密 ， 
高 ， 相 同 值 连续 
直接 以 列 为 压缩 粒度 ， 故 在 本 文中 选择 了 以 列 


同 


的 问 


根据 以 上 ,最 终 选 取 了 游程 编码 ,位 向 量 
前 缀 编码 ， 增 量 编码 和 改进 的 LZO 作为 压缩 算法 。 
压缩 粒度 的 目的 主要 是 为 了 解决 


分 布 不 匹配 的 问 


HE 


平均 数目 


尤 


KA， 
其 对 


多 的 列 而 言 ， 各 


的 一 种 改进 的 LZO 方法 


KE 速度 比 snappy 


任 
加 入 
2 倍 的 存 
更 快 。 对 那 


最 高 


明显 的 数据 推 


用 改进 的 LZO 


存 


通过 在 压缩 


编码 , WAH 编码 ， 


题 [22-24]， 但 是 对 于 文献 中 
前 对 数据 进行 排 


基数 小 ， 


相同 值 所 


5 百分比 


区 之 


2.3 ”基于 XGBoost 的 压缩 算法 选择 
XGBoost (eXtreme Gradient Boosting) [20] 是 Tianqi Chen 


等 人 提 


Decision Trees) ， 因 其 快速 的 处 焉 


间 差 异 很 4 
区 混合 的 


| 


方式 作 


出 的 一 种 改进 的 梯度 提升 决策 树 (Gradient Boosted 


时 间 内 便 获 得 


Spi 
< 


性 ， 泛 


举 , 解决 了 GBDT 树 无 法 
了 充分 的 缓存 线 优化 ， 


在 
。 拥 有 GBDT 树 的 处 理 数 提 
化 能 力 强 等 优点 ， 


对 


速度 和 优异 的 分 类 表现 在 短 
Kaggle 等 数据 比赛 中 被 广泛 使 
居 类 型 的 灵活 性 ， 
还 在 选择 最 佳 分 裂 点 时 


异常 值 的 鲁 棒 
行 枚 


> 进 行 


加 怕 


行 让 


| 练 的 缺点 ， 


且 在 设计 时 进行 


RR 了 训 


练 速度 


进一步 


缩 }， 
分 。 


轴 性 时 进行 采样 ， 
曾 强 了 泛 化 性 能 
根据 上 文 讨论 , 构建 


在 构建 的 压缩 有 


使 训 


上 用 。 


练 效果 怕 


NN 


。 支 持 列 采样 ， 


构建 树 


好 。 采 用 正则 化 防止 过 拟 合 ， 


m 是 类 别 数 目 


l 合 中 采 


j XGBoost 做 压缩 分 类 时 ， 每 


压缩 算法 集合 M ={ 游 程 编码 , 位 向 量 
编码 ，WAH 编码 ， 前 绥 编 码 ， 增 量 编码 ， 改 进 的 LZO， 不 压 


] XGBoost 来 进行 压缩 算法 的 划 


次 碗 


, 每 棵 树 对 


个 


类 别 进行 预测 , 在 本 例 


> 所 本 二 
人 需要 4 


m 棵 树 ， 


中 m=7。 
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可 把 每 颗 树 看 做 一 个 函数 f ,输入 为 统计 量 T 时 ，f 将 输入 样 


本 的 统计 量 映射 为 及 7), 太 (7), 有 (7),…… f(D 做 为 T 的 预测 值 。 


XGBoost 的 流程 重点 在 于 建树 过 程 和 叶子 节点 分 裂 过 程 。 
在 建树 过 程 中 ， 最 重要 的 就 是 目标 函数 ， 首 先 定义 目标 函 


数 ; 
OHj( 力 = 世人 为 +Q( (1) 
其 中 ZJ) 是 损失 函数 cost fhnction) 。 ZJ 的 表达 式 如 下 : 
ZL 人 = 21($ —») O) 


因为 本 文 的 压缩 策略 最 终 只 选择 一 个 ， 各 类 互 斥 ， 是 一 
多 分 类 (multi-class) 问题 , 而 非 一 个 多 标签 (multi-label) 问题 ， 
故 把 损失 函数 定 为 Softmax 损失 函数 ， 则 属于 某 个 类 别 i 的 概 


p;= el / a (T) (3) 
m=1 


损失 函数 L(G) 中 六 的 计算 方式 是 


= (4) 

K 是 树 的 总 数 , f 表示 每 一 个 具体 的 CART 树 ,模型 由 大 棵 
CART 树 组 成 ， 

f(D=0,7),0 eR’,g:R’" {1,2,3,....,P} (5) 


R 指 的 是 叶子 权重 ，4 指 的 是 树 结构 ，9 把 输入 映射 到 叶 
子 索 引号 上 ，0@ 指定 了 每 个 索引 号 的 叶子 分 数 ， 其 中 。% 的 取 值 

过 函数 最 优化 计算 出 的 使 目标 函数 最 小 的 值 。P 指 的 是 索 
引 总 数 。 


Qty) 是 正则 化 项 ,用 来 判断 树 的 复杂 程度 。 用 以 权衡 目标 函数 
的 下 降 和 模型 的 复杂 程度 .避免 过 拟 合 。 
oO = 13 190 @ 


ZT 指 叶子 个 数 ， 忆 表示 各 叶子 节点 的 值 ， 其 中 值 、4 值 
指引 入 新 叶子 节点 的 复杂 度 代价 ，7Y 值 、4 值 值 越 大 ， 对 有 较 
多 叶子 节点 和 极端 值 的 树 惩 罚 越 大 , Q(9) 的 取 值 越 小 树 结构 越 
简单 。 
每 一 棵 树 结 构 的 确定 是 通过 每 次 尝试 对 一 个 已 有 的 叶子 加 
入 一 个 分 割 来 实现 的 ，XGBoost 对 树 节点 分 裂 采 用 的 公式 为 
Con- 5 和 


1]=Y (7) 


8 2 


| 指 左 子 树 分 数 ， 


其 中 乞 指 右 子 树 分 数 ， 


H+ 
(G, + Ge) 
H+Hr+h 
的 复杂 度 代价 ， Gi 是 左 子 树 所 有 节点 一 阶 导 数 的 和 ，Gx 是 
子 树 所 有 导数 一 阶 的 和 ，HHi 是 左 子 树 所 有 节点 二 阶 导 数 的 和 ， 
Ha 是 右 子 树 所 有 节点 二 阶 导 数 的 和 。XGBoost 的 节点 分 裂 操 
作 和 普通 的 决策 树 分 裂 过 程 不 同 在 于 普通 的 决策 树 在 分 裂 的 时 
候 并 不 考虑 树 的 复杂 度 ， 而 依赖 后 续 ， 的 剪 枝 ， 而 XGBoost 在 


指 不 分 割 可 以 得 到 的 分 数 ，Y 指 加 入 新 节点 引入 


Ch 合作 


| 
Cn 策略 的 FE 
过 YY 考虑 了 树 的 复杂 度 ， 故 不 需要 进行 音 
当 分 裂 带 来 的 增益 小 于 闪 值 Y 时， 停止 分 裂 。 
代 ， 当 样本 权重 和 小 于 设 定 阔 值 时 则 停止 建 


孙 靖 超 ， 等 : 基于 HB 


分 裂 的 时 候 就 已 经 通 
独 的 剪 梳 操 作 。 
然后 进入 下 一 轮 ; 
树 。 
2.4 列 区 混合 压缩 策略 流程 

本 文 压缩 策略 的 设计 原则 如 下 : 

1. 尽 量 减少 计算 成 本 ，2. 尽 量 提高 压缩 效率 。 

根据 设计 原则 设计 如 下 方案 ， 

1. 要 尽量 减少 计算 成 本 ， 就 得 从 压缩 粒度 和 压缩 算法 上 着 
手 , 压 缩 粒 度 要 混合 列 级 和 区 级 压缩 ,不 能 单纯 利用 区 级 压缩 ， 
为 了 避免 压缩 粒度 选择 过 大 导致 压缩 算法 在 局 部 不 适用 的 情况 ， 
先 采 用 排序 手段 使 数据 排序 紧密 。 在 压缩 算法 的 选择 上 也 应 该 
偏重 选用 轻 量 级 压缩 。2. 要 保证 最 高 的 压缩 效率 ， 就 需要 针对 
不 同 的 数据 特点 设计 不 同 的 压缩 算法 ， 并 且 改 进 以 往 分 类 策略 
中 分 类 算法 的 缺陷 以 达到 最 佳 压缩 效率 。 根 据 方案 思路 ， 设 计 
了 如 下 基于 排序 的 列 区 混合 压缩 策略 (a Hybrid Compression 


Strategy of Column-Based Compression and Sector-Based 


区 Ik 


Compression ) 。 

在 进行 压缩 策略 的 详细 介绍 时 ， 首 先 介 绍 相关 定义 。 

定义 1 数据 特征 : 数据 特征 是 指 用 来 对 所 选 数据 进行 描述 
的 一 组 信息 。 这 组 信息 包括 基数 9 ， 相 同 值 的 总 数 4 ,数据 类 型 
1 ， 数 据 的 倾斜 程度 4 ， 键 值 对 总 数 v ,相同 值 连续 的 平均 数 
c， 值 的 平均 长 度 ! 。 在 本 文中 基数 特 指 一 列 中 数据 的 散 列 程度 ， 
即 该 种 不 同属 性 值 的 个 数 。 数 据 访问 频 度 f=C/t ，C 指 文件 
访问 次 数 ，t 指 相应 时 间 段 。 

定义 2 数据 统计 量 7 : 数据 统计 量 是 通过 数据 特征 的 到 的 
一 组 数据 ， 是 用 来 作为 压缩 策略 的 输入 ， 通 过 数据 特征 计算 得 
到 , 共有 7 个 分 量 。 分 别 是 4 数据 的 散 列 程度 , 9 数据 的 倾斜 程 
度 ,，4; 相同 值 所 占 百 分 比 a*100/v ,94 相同 值 连续 的 平均 数目 c ， 
qs 数据 类 型 ! ，4e 值 的 平均 长 度 ! ， 4) 数据 使 用 频 度 f 。 


4 
混 级 区 压缩 策略 混 级 列 压缩 策略 
统计 特征 
a 
统计 特征 
相似 和 EE 块 特 证 不 相似 
相 邻 区 推荐 XGBoost WAH 
站 下 
数据 块 压缩 数据 块 压缩 数据 压缩 
L I J 


图 2 基于 排序 的 列 区 混合 压 


缩 策略 流程 图 


基于 排序 的 列 区 混合 压缩 策 


Strategy of Column-Based Compression and Sector-Based 


略 (a Hybrid Compression 
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2 所 示 。 其 算法 流程 描述 
算法 1: 基于 排序 的 列 区 混合 压缩 策略 
输入 : 待 压缩 数据 W 
输出 : 压缩 是 否 成 功 〈0: 失败 ， 
Stepl 从 HBase 读 入 各 列 数 据 。 
Step2 对 各 列 数据 进行 排序 ,并 对 各 列 数据 按照 指定 格式 

进行 存储 。 
Step3 


术 如 下 。 


Compression ) 流程 如 图 


1: 成 功 ) 


随机 抽取 列 中 10 
T={9,,93,44,45,46,97} ,is[1L10] 。 
Step4 判断 各 列 数据 分 布 特性 ， 根 据 数据 分 布 特性 将 数据 
j 混 级 区 压缩 策略 (Hybrid Sector-Based Compression ) 和 混 级 
1 压缩 策略 (Hybrid Column-Based Compression ) 分 别 进行 存储 ， 
Step5 各 列 数据 根据 分 配 的 不 同 压缩 策略 进行 压缩 。 
Step6 将 压缩 数据 存储 到 HDFS 中 。 
首先 从 HBase 读 入 各 列 数据 ， 对 各 列 数据 进行 排序 ， 按 照 
1 部 分 提出 的 表 结 构 对 排序 后 的 数据 进行 存储 。 通 过 统计 随 


区 统计 特征 


统 计 量 


忆 潮 


革 朋 二 | 
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输入 : 待 压缩 列 数据 
输出 : 压缩 策略 m 
Stepl 统计 特征 统计 量 到 ={g,9,95,96,97} 
Step2 对 基数 4 进行 判断 ,如 小 于 闵 值 , m =WAH 编码 , 跳 


转 Step6 ,如 大 于 阔 值 , 跳 转 Step3 。 

Step3 判断 文本 类 型 1 ,如 是 数值 , m = 增 量 压缩 编码 , 跳 转 
Step6 ,如 是 文本 , 跳 转 Step4 。 

Step4 判断 数据 倾斜 ,如 数据 有 明显 倾斜 , m = 
转 Step6 ,如 无 明显 倾斜 , 跳 转 Step5 。 

Step5 根据 使 用 频 度 1 , 将 压缩 算法 分 为 改进 的 LZO 和 不 
压缩 ， 若 使 用 频 度 大 m = 不 压缩 ， 跳 转 最 后 一 步 ， 若 使 用 频 度 
小 ，m = 改进 的 LZO， 跳 转 Step6 。 


前 级 编码 , 跳 


Step6 返回 压缩 策略 m 。 
首先 第 一 步 对 读 入 的 数据 进行 排序 ， 本 文选 择 了 以 字典 序 


为 排序 方式 ， 第 二 步 对 排 好 序 的 数据 进行 基数 的 判断 ， 之 所 以 
将 基数 作为 首要 分 类 标准 是 因为 WAH 算法 在 权衡 压缩 率 ， 压 


机 块 的 统计 量 来 计算 各 区 之 间 的 相似 因子 5， 相似 因子 5 是 / 
来 判断 区 间 相 似 度 的 定义 量 。 通过 两 区 的 统计 量 7 特点 分 量 的 


一 


缩 /解压 时 间 和 查询 效率 的 表现 后 在 四 种 算法 中 是 最 优秀 的 , 所 
以 希望 尽 可 能 多 的 数据 适用 WAH 算法 ， 而 增 量 压缩 的 数据 适 


差 的 绝对 值得 到 。 其 中 需要 的 统计 分 量 是 通过 第 一 个 区 的 压缩 


应 类 型 较 窗 ， 对 数据 要 求 较 高 ， 所 以 安排 在 第 三 步 进 行 判 断 ， 


策略 给 出 的 ， 如 若 选 出 的 列 中 各 区 特征 相似 程度 高 ， 则 判断 列 
分 布 均 衡 ， 列 中 数据 适用 混 级 列 压 缩 策 略 ， 若 选 出 的 列 中 各 区 


最 后 第 四 步 对 剩 下 的 数据 根据 数据 分 布 特点 进行 分 类 ， 对 有 明 
显 倾斜 的 数据 适用 前 缀 压缩 ， 对 无 明显 倾斜 的 数据 根据 使 用 频 


特征 相似 程度 低 ， 则 判断 分 布 离散 ， 列 中 数据 适用 混 级 区 压缩 
策略 。 然 后 用 适用 策略 根据 数据 特点 判断 出 的 压缩 算法 对 数据 
进行 压缩 后 将 数据 存储 到 HDFS 中 。 在 下 面 详细 介绍 了 混 级 区 
压缩 策略 和 混 级 列 压缩 策略 的 算法 流程 。 

算法 2: 混 级 区 压缩 策略 (Hybrid Sector-Based Compression 
Strategy) 

输入 : 待 压缩 列 数据 

输出 ， 压缩 策略 向 量 MM， 

Stepl 令 1=1。 


Step2 统计 T={91,9,,43,44,4s,46}。 
Step3 若 i=1, 跳 转 Step4 ,否则 跳 转 Step3 。 
Step4 通过 相似 因子 5 计算 与 上 一 区 块 的 相似 度 , 若 相 似 


度 高 , m; =m ,否则 跳 转 统计 五 ={41,9;,43,44,95,96} , 跳 转 到 
Step5 。 
Step5 对 数据 块 使 用 基于 XGBoost 的 策略 选择 方法 。 


Step6 如 块 i 不 是 最 后 一 个 块 ,i=i+1, 跳 到 Step3 。 

Step7 返回 压缩 策略 向 量 MM， 

对 适用 混 级 区 压缩 策略 的 列 首先 统计 第 一 个 区 块 的 统计 量 

={41,42,43,44,4;;46} ，i=1。 通过 相似 因子 5 的 计算 判断 两 

区 的 相似 性 ， 若 两 区 相似 ， 则 适用 上 一 区 的 压缩 算法 ， 和 否则 重 
新 统计 统计 量 二 ={41,4,,43,44,45,4e} ， 利 用 XGBoost 策略 得 到 
该 区 块 相 应 的 压缩 算法 。 将 每 个 区 块根 据 XGBoost 策略 或 是 相 
邻 区 学 习 策略 得 到 的 压缩 策略 存 入 压缩 策略 向 量 M, 。 

算法 3: 温 级 列 压缩 策略 (Hybrid Column-Based 


Compression Strategy ) 


度 分 别 选 择 改进 的 LZO 算法 或 是 不 进行 数据 压缩 。 


3 ”实验 验证 


为 了 检验 本 文 提出 的 压缩 策略 的 效果 ,选取 了 文献 [和 中 的 
c-store 配套 压缩 策略 ,文献 [14] 中 基于 学 习 的 区 级 压缩 策略 ， 文 
献 [15] 提 出 的 朴素 贝 叶 斯 理论 的 压缩 策略 选择 方法 , 和 文献 [16] 
提出 的 基于 冷 热 数 据 的 压缩 分 类 策略 和 本 文 方法 对 相同 的 数据 
进行 压缩 , 通过 压 较 缩 率 和 压缩 /解压 时 间 两 个 指标 来 验证 本 文 
方法 的 可 行 性 。 

1) 实验 环境 

本 实验 环境 采用 9 台 系 统 为 centos7 的 服务 器 ， 其 中 一 台 
MASTER,8 台 SLAVER, 服务器 硬件 配置 相同 ,cpu 均 为 Intel(R) 
Xeon(R) CPU E5-2630 v4 @ 2.20GHz，64gb 内 存 ，3t 硬盘 ， 
hadoop 版 本 2.7.3，hbase 版 本 1.2.4。 

2) 数据 集 描述 

关于 列 式 数据 的 压缩 , 前 人 采用 的 TPC-H 数据 集 主要 适用 
关系 数据 OLAP 的 操作 ， 且 数据 不 倾斜 ， 数 据 形式 和 与 
实 的 使 用 场景 差距 较 大 。 本 文采 用 的 的 是 TPC-DS 数据 集 ,是 
权威 标准 化 组 织 TPC (Transaction Processing Performance 
Council) 根 据 TPC-H 的 不 足 和 现实 场景 的 需求 改进 了 的 版 本 ， 
测试 用 的 数据 有 倾斜 ， 和 现实 数据 较为 一 致 。 
本 实验 选用 了 其 中 的 ITEM 表 作 为 测试 数据 集 ， 这 是 因为 
该 表 数 据 类 型 丰富 ,符合 实际 且 更 能 体现 出 各 压缩 算法 的 性 能 ， 
选 定 的 策略 对 该 表 进 行 压 缩 , 该 表 共 有 22 种 属性 , 本 实验 通 
过 dsdgen 程序 生成 了 3414MB 大 小 的 ITEM 表 。 生成 数据 的 各 
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但 是 如 果 压 缩 算 法 不 够 合适 ， 阳 
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列 文件 访问 级 别 表 如 表 3 所 示 。 


表 3 各 列 对 应 的 文件 访问 级 别 
列 访问 级 别 列 访问 级 别 
1 沉默 数据 12 沉默 数据 
2 沉默 数据 13 沉默 数据 
3 沉默 数据 14 沉默 数据 
4 沉默 数据 15 沉默 数据 
5 沉默 数据 16 沉默 数据 
6 沉默 数据 17 活泼 数据 
¥ 活泼 数据 18 沉默 数据 
8 沉默 数据 19 沉默 数据 
9 沉默 数据 20 活泼 数据 
10 沉默 数据 21 活泼 数据 
if 活泼 数据 22 活泼 数据 


3) 实验 结果 与 分 析 

实验 在 选 定数 据 上 将 各 压缩 策 
间 方 面 进行 了 比较 ， 结 果 如 图 

a) 压缩 率 : 


3 一 图 


咯 在 压缩 率 和 压缩 /解压 时 
6 所 示 。 


木 文 方法 “IN 


压缩 算法 选择 策略 


基于 冷 热 数据 的 压缩 分 类 生 咯 “国生 有 


朴素 贝 叶 斯 压缩 策略 。 轩 时 时时 时 时时 是 时 时 到 玫 


基于 学 习 的 区 级 压缩 策 咯 “国生 


c-store 配 套 压 纺 生 上 II 


0 500 


1000 1500 2000 


压缩 后 数据 大 小 /MB 


由 图 


图 3 各 策略 压缩 率 比 较 


3 可 知 ， 本 文 提 出 的 方法 在 各 列 的 压缩 效果 比 其 他 4 


种 策略 都 要 好 ， 压 缩 率 达到 了 原 数 据 的 20% 左 右 ， 基 于 冷 热 数 


据 的 压缩 配套 策略 次 之 ， 压 缩 率 为 27.8%， 朴 素 贝 叶 


斯 压缩 策 


略 的 压缩 率 为 36.5%， 基 于 学 习 的 


又 级 压缩 策略 为 38.9%，c- 


store 配套 压缩 策 


各 的 压缩 率 最 低 为 52.8%， 本 文 取 得 的 压缩 效 


果 较 好 是 因为 以 前 的 策略 大 多 将 研究 重点 放 在 分 类 算法 上 ， 而 


对 压缩 算法 的 选择 未 有 足够 关注 ,多 是 沿用 了 c-store 配套 策略 


的 压缩 算法 。 采 取 细 粒度 的 分 类 虽然 能 提高 对 数据 的 分 类 精度 ， 


了 高 的 分 类 精度 也 无 法 达到 很 好 


的 准确 率 。 本 文 算 法 的 选择 充分 考虑 了 大 数据 环境 下 各 类 数据 
的 特点 ， 针 对 不 同 特点 的 数据 选择 了 适合 的 压缩 算法 。 且 在 压 


缩 前 对 数据 进行 排 请 
到 很 高 的 压缩 比 ， 
图 4 可 知 ， 


， 各 部 分 数据 特点 清晰 ， 便 于 压缩 ， 能 达 
体 各 列 压 缩 效 果 如 图 4 所 示 。 
本 文 方法 在 除 17 列 外 各 列 的 压缩 效果 都 比 
其 他 方法 要 好 ， 其 中 17 列 iinformulaiton 列 属于 活泼 数据 ,， 根 
据 本 文 策略 判断 数据 特点 后 断定 为 不 被 压缩 ， 但 是 基于 区 级 的 


压缩 策略 粒度 更 小 ， 某 些 文本 可 能 
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局 部 有 相似 性 ， 所 以 被 判断 


缩 算法 在 该 列 效果 


不 好 ， 


使 用 压缩 算法 ， 可 以 看 到 ， 其 他 压 
而 且 虽 然 能 够 起 到 压缩 效果 ， 但 是 会 耗费 较 多 的 压缩 时 间 ， 而 
且 对 后 续 查 询 造成 困难 。 

800 


压缩 后 数据 大 小 /MB 
sy 
© 
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» bb, 
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3141516171819202122 


0 

列 位置 

mc-store 配 套 压 缩 策略 目 基 于 

朴素 贝 叶 斯 压缩 策略 四 基于 
日 本 文 方法 


学 习 的 区 级 压缩 策略 
F 冷 热 数据 的 压缩 分 类 策略 


b) 压缩 /解压 时 间 : 
压缩 /解压 时 间 的 实验 结果 如 图 


5、 


本 文 方法 于 时 是 是 昨 昨 时 


此 
由 


压缩 算法 选择 策略 


图 4 各 策略 在 不 同 列 的 压缩 效果 


图 6 所 示 。 


冷 热 数据 的 压缩 分 类 策 基本 时时 是 时 时时 到 到 


朴素 贝 叶 斯 压缩 策略 ”天时 量 二 是 是 呈 到 是 咱 


基于 学 习 的 区 级 压缩 策略 。 因 晤 呈 是 量 呈 是 时时 时 是 是 才 


c-store 配 套 压 缩 策略 ”天时 量 呈 时时 是 时 时 时 时 时 时 时 i 
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图 5 压缩 时 间 


本 文 方法 国宝 时 呈 时 时 吧 旱 


盗 基于 冷 热 数据 的 压缩 分 类 策 二 量 汪 时 时 时 时 是 是 蚌 时 到 

要 

岳 。。。 箱 素 中叶 斯 压缩 策 咯 “有 

手 

鼠 -- 

二 。 基于 学 习 的 区 级 压缩 策 咯 JI 


| 
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解压 时 间 /s 
图 6 解压 时 间 
结果 证 明 本 文 提出 的 策略 在 压缩 /解压 时 间 方 面 也 有 很 好 


的 优势 ， 这 是 因为 本 文 方法 通过 混合 粒度 压缩 ， 将 列 根据 不 同 


有 


特点 分 别 采 / 


区 的 数据 进 


不 同 压 缩 粒 度 ， 不 需要 向 以 往 工 作 那 样 对 列 中 所 
行 统计 ， 节 省 了 大 量 的 计算 成 本 。 而 且 在 压缩 前 


对 数据 进行 排序 ， 除 了 有 利于 压缩 比 的 同时 ， 更 紧凑 严密 的 数 


据 分 布 可 以 节 和 


大 量 轻 量 级 算法 压缩 的 时 间 成 本 ， 以 WAH 算 
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法 为 例 ， 数 据 排序 后 ， 有 相同 特征 的 值 排 在 一 起 ， 可 以 增加 游 
程 长 度 ， 减 少 三 元 组 数量 ， 从 而 加 快 压 缩 时 间 和 解压 时 间 。 

4 ”结束 语 


本 文 根 据 前 人 对 列 存 储 压缩 策略 工作 的 不 足 ， 针 对 HBase 


的 特点 ,提出 了 一 种 压缩 前 对 列 数据 排序 的 方法 ; 在 此 基础 上 ， 


将 按 区 和 按 列 两 个 压缩 粒度 结合 ， 
策略 ， 


提出 了 一 种 列 区 混合 的 压缩 
在 两 种 压缩 粒度 下 分 别提 出 了 适应 排序 后 数据 特点 的 压 
多， 对 压缩 算法 进行 了 详细 研究 ， 引 入 了 XGBoost 算法 来 
以 往 压缩 分 类 算法 的 不 足 。 实 验证 明 , 本 文 方法 在 压缩 率 ， 


洽 / 解 压 时 间 上 均 有 优 于 前 人 的 表现 。 接 下 来 的 研究 重点 是 基 


HBase 的 数据 库 压 缩 态 数 据 查 询 的 优化 上 ， 使 压缩 数据 在 


HBase 中 不 仅 有 存储 优势 ， 更 有 查询 优势 。 
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